微软研究院&多伦多大学

您所在的位置:网站首页 微软 多伦多 微软研究院&多伦多大学

微软研究院&多伦多大学

2024-04-18 08:09| 来源: 网络整理| 查看: 265

【标题】Semi-Markov Offline Reinforcement Learning for Healthcare

【作者团队】Mehdi Fatemi, Mary Wu, Jeremy Petch, Walter Nelson, Stuart J. Connolly, Alexander Benz, Anthony Carnicelli, Marzyeh Ghassemi

【发表日期】2022.3.17

【论文链接】https://arxiv.org/pdf/2203.09365.pdf

【推荐理由】强化学习(RL)任务通常被定义为马尔可夫决策过程(MDP),假设决策是在固定的时间间隔内做出的。然而,包括医疗保健在内的许多非常重要的应用程序并不满足这一假设,但它们通常在对数据进行人工重塑后被建模为MDP。此外,大多数医疗(及类似)问题本质上是离线的,只允许进行回顾性研究。为此,本文首先讨论了Semi-MDP(SMDP)框架,该框架正式处理可变时间的操作。其提出一种将SMDP修改应用于几乎任何基于给定值的离线RL方法的正式方法。利用这一理论介绍了三种基于SMDP的离线RL算法,即SDQN、SDDQN和SBCQ。实证研究证明,这些基于SMDP的算法可以在这些可变时间环境中学习最优策略,而MDP模型的非定向修改会导致次优策略。最后,将该新算法应用于与预防中风的华法林剂量相关的真实离线数据集,并展示了类似的结果。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3